12 - Künstliche Intelligenz II [ID:7994]
50 von 539 angezeigt

wheels

Diesen Audiobeitrag wird von der Universität Erlangen Nürnberg präsentiert.

Wir haben noch das ganz große Thema fertig zu machen. Wie bauen wir

wie bauen wir Agenten, die sich in stochastischen, partiell beobachtbaren Umgebungen zurechtfinden

können und mit zurechtfinden können, meinen wir immer, rational entscheiden können, was die

nächste Aktion ist. Wir hatten dafür verschiedene Werkzeuge in einer Wahrscheinlichkeitstheorie

entwickelt, das Ganze gipfelte dann in Bayerischen Netzwerken und dann hinterher, wenn wir uns um

sequenzielle Umgebungen kümmern in dynamischen Bayerischen Netzwerken und da hatten wir am

Montag angefangen. Dynamische Bayerische Netzwerke sind Bayerische Netzwerke, die irgendwie in

Zeitscheiben aufgebaut werden. Wir haben so immer einzelne Zeitscheiben, wie diese sehr

einfach hier, beziehungsweise hier, so eine etwas größere Zeitscheibe für dieses Netzwerk, für

diesen selbstfahrenden Roboter und die Idee dabei ist, dass die Zeitscheiben einfach diskret, aber

potenziell unendlich lang repliziert sind und durch temporale Links verbunden werden und die

temporalen Links sind so angeordnet, dass die temporalen Links einfach eine First-Order-Malkopf

Eigenschaft haben. Das heißt, man hat immer nur Links, also Elternlinks in die davor liegende

Zeitscheibe oder innerhalb der Zeitscheibe in so einem dynamischen Bayerischen Netz. Und wenn man

das macht, dann ist das natürlich eine Verallgemeinerung von allerlei Dingen,

nämlich HMMs, offensichtlich Markovketten und so weiter und wir kriegen diese Algorithmen,

die wir auf diesen einfachen Netzwerken kriegen, sehen wir im Wesentlichen auf den dynamischen

Bayerischen Netzwerken wieder. Man kann auch andersherum gehen, wie typischerweise, man gewinnt

nicht an theoretischer Expressivität gegenüber zum Beispiel hinten Markov-Modellen, aber wir

gewinnen an Kompaktheit und Struktur. Wir hatten uns überlegt, dass wenn wir so ein dynamisches

Bayerisches Netzwerk haben, können wir das in HMM überführen, aber wir kriegen eine Explosion

von Abhängigkeiten, weil wir diese Stratifizierung, die wir hier hatten, ohne irgendwelche Einflüsse

zwischen den einzelnen Dingern, die verlieren wir und wir kriegen ein vollständig verbundenes

Netzwerk, was erstens sehr viel größer ist und zweitens durch die vielen Verbindungen sehr viel

schlechter handhabbar ist. Und wir haben uns dann Algorithmen so ein bisschen angeguckt, die

funktionieren im Wesentlichen wie die, die wir schon gesehen haben, nur dadurch, dass das Ganze

allgemeiner ist, diese dynamischen Bayerischen Netzwerke lassen sich auch auf den kontinuierlichen

Fall anwenden, wo man dann solche Dinge wie Kalmanfelder kriegt oder so etwas und diese

Verallgemeinerung bezahlen wir natürlich durch einen gewissen Strukturverlust und durch größere

Schwierigkeiten in den Algorithmen. Alles, was ich damit eigentlich zeigen will, ist, wir haben da

ein schönes theoretisches Framework, auf dem können wir rechnen, auf dem können wir Filtering,

Smoothing, alle diese Dinge tun. Manchmal muss man die Algorithmen etwas genauer betrachten,

es gibt da Fortgeschritte an Algorithmen wie zum Beispiel dieses Particle Filtering,

was im Wesentlichen das Problem, dass man in dynamischen Bayerischen Netzwerken so eine

lineare Abhängigkeit von der Zeit in die Komplexität rein kriegt, dass die wieder los wird,

indem man gewisse Approximationen macht und damit dann immer noch irgendwie skalierbar rechnen kann.

Gut, das war die Wahrscheinlichkeitstheorie. Nächste, was wir gemacht haben, war in die

Entscheidungstheorie überzugehen und das Konzept, was man da relativ natürlich kriegt,

sind sequenzielle Entscheidungsprobleme, das heißt Entscheidungsprobleme, die genau durch diese

dynamischen Bayerischen Netzwerke entstehen. Wir erinnern uns bei den episodischen, im episodischen

Fall hatten wir die Bayerischen Netzwerke erweitert um Aktions- und Nützlichkeitsknoten und bekamen

dann Entscheidungsnetzwerke und was wir hier machen, ist, dass wir im Wesentlichen genau das

Gleiche machen. Wir addieren Nützlichkeit und Aktionen und kriegen dann dynamische Entscheidungsnetzwerke.

Unser Beispiel war diese kleine 4x3-Welt und wir hatten gesehen, dadurch, dass wir in diese

Markov-Entscheidungsprobleme kommen, MDPs, wo man ein Übergangsmodell hat und eine Belohnungsfunktion,

dass man da von der Idee, dass man einen Plan hat, übergehen muss dazu, dass man eine Policy hat.

Warum? Weil man eben nicht mehr voraussehen kann, wo man bleibt. Das heißt, diese einfache lineare

Aneinanderkettung, ich mache erst das, dann das und dann das und dann das und dann das und dann das

Teil einer Videoserie :

Zugänglich über

Offener Zugang

Dauer

01:20:12 Min

Aufnahmedatum

2017-06-22

Hochgeladen am

2017-06-22 17:02:10

Sprache

de-DE

Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.

Einbetten
Wordpress FAU Plugin
iFrame
Teilen